Extraction et regroupement de descripteurs morpho-syntaxiques pour des processus de Fouille de Textes

نویسنده

Nicolas Béchet

چکیده

Words are one of the grounds of European languages. Corpora written with these languages are normallydescribe by words. However, extracted information given by words is semantically poor. Actually, totake into account the complexity of European languages are really important. As a result, we propose inthis thesis to feature the characteristic of European languages by using syntactic informations in orderto discover new semantic knowledge from corpora.First, we present SELDE, a model of feature selection. This one is based on objects extracted fromsyntactic relations of a corpus. We experiment SELDE on textual classification tasks by proposing Ex-pLSA, an approach used to make a corpus expansion by using the SELDE features. The goal of ExpLSAis to combine the SELDE features with the statistic method LSA.The SELDE model gives relevant features but cannot be apply with all kinds of textual data. Thus, wepropose different approaches adapted to specific textual data, called complex textual data. We experimentour approaches with noised data, bad written data, and data without syntactic informations.Finally, we propose the SELDEF model. It introduce the automatic validation of syntactic relationscalled induced. Two validation approaches are proposed : a Semantic-Vector-based approach and a WebValidation system. The Semantic Vectors approach is a Roget-based method which computes a syntacticrelation as a vector. Web Validation uses a search engine to determine the relevance of a syntacticrelation. Then, we propose approaches to combine both in order to rank induced syntactic relations.We experiment SELDEF in a conceptual classes building task. Obtained results confirm the quality ofvalidation approaches and quality of built classes. Discipline : Informatique Laboratoire : Laboratoire d’Informatique, de Robotique et de Micro-électronique de Montpellier(LIRMM) ; UMR 5506 ; 161 rue Ada, 34392 Montpellier Cedex 5, France Mots clés : TAL, fouille de textes, descripteur, syntaxe, classification.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Fouille de textes pour orienter la construction d'une ressource terminologique

Résumé. La finalité de ce papier est d'analyser l'apport de techniques de fouille de données textuelles à une méthodologie de construction d'ontologie à partir de textes. Le domaine d’application de cette expérimentation est celui de l’accidentologie routière. Dans ce contexte, les résultats des techniques de fouille de données textuelles sont utilisés pour orienter la construction d’une ressou...

متن کامل

Extraction automatique de connaissances pour la décision multicritère. (Automatic Knowledge Extraction pour Multicriteria Decision Making)

Cette application, sans prendre parti, aborde le sujet délicat qu’est l’automatisation cognitive. Elle propose la mise en place d’une chaîne informatique complète pour supporter chacune des étapes de la décision, en particulier la phase d’apprentissage en faisant de la connaissance actionnable (CA) une entité informatique manipulable par des algorithmes. La connaissance est extraite directement...

متن کامل

Veille technologique assistée par la fouille de textes

Résumé. Le domaine de la veille technologique vise à récolter, traiter, et analyser des informations scientifiques et techniques utiles aux acteurs économiques. Dans cet article, nous proposons d’utiliser des techniques de fouille de textes pour automatiser le processus de traitement des données issues de bases de textes scientifiques. Toutefois, la veille introduit une difficulté inhabituelle ...

متن کامل

Annotation de textes par extraction d'informations lexico-syntaxiques et acquisition de schémas conceptuels de causalité

Résumé. Nous présentons la méthode INSYSE (Interface Syntaxe SEmantique) pour l’annotation de documents textuels. Notre objectif est de construire des annotations sémantiques de ces résumés pour interroger le corpus sur la fonction des gènes et leurs relations de causalité avec certaines maladies. Notre approche est semi-automatique, centrée sur (1) l’extraction d’informations lexico-syntaxique...

متن کامل

Construction d'ontologies à partir de textes : la phase de conceptualisation

Résumé : Dans cet article nous nous interrogeons sur la manière d’outiller la phase de conceptualisation lors de la construction d’une ontologie à partir de textes. La mise en perspective des résultats obtenus à partir de techniques issues de la terminologie et de la fouille de textes est réalisée selon trois plans (discours, linguistique et conceptuel). Cette étude permet de mieux appréhender ...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2009

Extraction et regroupement de descripteurs morpho-syntaxiques pour des processus de Fouille de Textes

نویسنده

چکیده

منابع مشابه

Fouille de textes pour orienter la construction d'une ressource terminologique

Extraction automatique de connaissances pour la décision multicritère. (Automatic Knowledge Extraction pour Multicriteria Decision Making)

Veille technologique assistée par la fouille de textes

Annotation de textes par extraction d'informations lexico-syntaxiques et acquisition de schémas conceptuels de causalité

Construction d'ontologies à partir de textes : la phase de conceptualisation

عنوان ژورنال:

اشتراک گذاری